1.进入spark目录和配置文件
1 | [root@hadoop000 ~]# cd /opt/app/spark/conf |
2.创建spark-history的存储日志路径为hdfs上(当然也可以在linux文件系统上)
1 | [root@hadoop000 conf]# hdfs dfs -ls /Found 3 items |
在HDFS中创建一个目录,用于保存Spark运行日志信息。Spark History Server从此目录中读取日志信息
3.配置
1 | [root@hadoop000 conf]# vi spark-defaults.conf |
spark.eventLog.dir保存日志相关信息的路径,可以是hdfs://开头的HDFS路径,也可以是file://开头的本地路径,都需要提前创建
spark.yarn.historyServer.address : Spark history server的地址(不加http://).
这个地址会在Spark应用程序完成后提交给YARN RM,然后可以在RM UI上点击链接跳转到history server UI上.
4.添加SPARK_HISTORY_OPTS参数
1 | [root@hadoop01 conf]# vi spark-env.sh |
5.启动服务和查看
1 | [root@hadoop01 spark]# ./sbin/start-history-server.sh starting org.apache.spark.deploy.history.HistoryServer, logging to /root/learnproject/app/spark/logs/spark-root-org.apache.spark.deploy.history.HistoryServer-1-sht-sgmhadoopnn-01.out[root@hadoop01 ~]# jps28905 HistoryServer30407 ProdServerStart30373 ResourceManager30957 NameNode16949 Jps30280 DFSZKFailoverController31445 JobHistoryServer |
以上配置是针对使用自己编译的Spark部署到集群中一到两台机器上作为提交作业客户端的,如果你是CDH集群中集成的Spark那么可以在管理界面直接查看!